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基于 用 户 目 然 标注 的 TF -IDF 辅助 标 引 算法 及 
实证 研究 


IKAS WEE 
中 国 科 学 技术 信息 研究 所 ”北京 100038 


摘要 : [目的 /意义 ] 从 用 户 角 度 出 发 ,研究 基于 用 户 自然 标注 的 TF-IDF 辅助 标 引 算法 。[ 方 法 /过 程 ] 首先 
以 核心 期 刊 论文 中 作者 标注 的 关键 词 和 分 类 号 为 源 数 据 ,通过 对 关键 词 词 频 进行 统计 ,使 用 TF-IDF 算法 构建 
用 户 标注 词 表 、 形 成 标 引 知识 库 , 然 后 通过 IK Analyzer 分 词 软件 对 待 标 引 的 科技 项 目 数据 进行 切 词 和 停 用 词 处 
理 , 进 而 使 用 TF-IDF 算法 和 位 置 加 权 算 法 提取 科技 项 目 数 据 的 特征 词 , 最 终 实现 对 科技 项 目 数 据 进 行 关 键 词 
和 分 类 的 同步 标 引 。 [ 结果 /结论 ] 实验 结果 表明 ,机 标 关 键 词 与 人 标 关键 词 的 相似 比 在 60% 以 上 的 科技 项 目 
数据 占 总 数 的 68. 196 ,机 标 分 类 号 与 人 标 分 类 号 前 三 位 一 致 的 点 总 数 的 83.9% ,结果 表明 基于 用 户 自 然 标注 
数据 并 采用 TFTDF 算法 在 关键 词 和 分 类 标 引 方面 是 可 行 的 。 
CÓ 关键 词 : 辅助 标 引 ”用户 自 然 标 注 TFJDF 算法 ”信息 组 织 
〇 分 类 号 : G254 
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TAXE, T AEBS HP BRE 
Ce 是 根据 用 户 已 有 的 知识 ,结合 对 文献 内 容 的 理解 ,给 出 
息 组 织 是 根据 信息 资源 检索 的 需要 ,以 文本 及 能 够 代表 该 文本 主要 内 容 的 标签 或 词语 。 目 前 ,自动 


选 所 ,\ 标 引 、 处 理 ,使 其 成 为 有 序 化 集合 的 活动 ，。 其 在. 定 程度 上 是 因为 自动 标 引 使 用 的 知识 库 通 党 是 依 


中 信息 标 引 就 是 对 信息 内 容 进 行 分 析 并 充分 而 有 效 靠 领 域 专家 手工 建立 的 ,难以 较为 全 面 地 将 用 户 使 用 


NEEDS. 信息 款 引 分 主题 祭 引 和 分 类 祭 引 ,主题 。 的 词语 包 售 进 去 ,其 覆盖 面 和 更 新 速度 有 待 提高 。 而 


栋 醋 是 依据 特定 的 主题 ,赋予 文献 主题 标识 的 过 程 , 主 。 用 户 自然 标注 能 够 为 扩充 知识 库 提 供 一 个 途 多 ,将 用 
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题 标 引 可 以 采用 标题 语言 `, 叙 词 语言 和 关键 词语 言 等 ; 户 对 某 一 领域 内 党 用 的 概念 或 主题 词 全 面 快速 地 扩 


分 类 标 引 是 依据 特定 的 分 类 语言 ,赋予 文献 分 类 标识 充 , 并 尽 可 能 符合 用 户 的 使 用 习惯 。 因 此 ,研究 基于 用 


的 过 程 。 大 数据 环境 下 ,机 器 往往 需要 依据 相关 的 知 。 户 自 然 标 注 的 机 器 辅助 标 引 算法 ,在 提高 自动 标 引 的 


识 库 , 从 文本 中 抽取 能 够 表达 文献 信息 内 容 的 关键 词 准确 率 以 及 标 引 结果 更 加 符合 用 户 使 用 习惯 方面 具有 
或 分 类 号 ,用 于 文本 检索 和 分 类 导航 等 方面 ,因此 , 知 重要 意义 。 
识 库 的 构建 是 自动 标 引 的 重要 研究 内 容 之 一 。 

通过 用 户 自然 标注 构建 知识 库 是 自动 标 引 的 一 个 
重要 思路 。 用 户 自然 标注 是 用 户 在 无 意 中 为 自然 语言 21 标 引 相 关 研 究 
处 理 研究 的 各 种 资源 作 了 一 定 程度 的 义务 “标注 ” ,是 国内 外 对 自动 标 引 的 研究 主要 集中 在 标 引 算法 的 
因特网 用 户 对 自己 的 资源 或 收藏 的 他 人 资源 添加 标签 ”研究 。 章 成 志 站 整合 了 统计 机 器 学 习 模型 与 集成 学 习 
的 活动 ,标签 是 用 户 选取 的 、 代 表 被 标注 资源 的 符号 ， ”方法 的 优势 ,并 结合 多 分 类 模型 投票 的 方式 ,对 文档 进 
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行 自动 标 引 ;李纲 ”等 利用 基于 知 网 的 词语 语义 相关 
算法 对 词汇 链 的 构建 算法 进行 了 改进 ,并 结合 词 频 和 
词 的 位 置 等 统计 信息 ,进行 关键 词 的 自动 标 引 ; 曹 树 金 
等 四 以 逸 仙 时 空 BBS 为 奥 情 信息 源 ,设计 了 主题 帖 自 
动 标 引 和 情感 倾向 性 分 析 策 略 , 并 对 主题 帖 自动 标 引 
结果 .倾向 性 人 工 判断 与 自动 分 析 的 结果 进行 了 对 比 ; 
王 丹 等 "针对 中 文 自动 标 引 过 程 中 出 现 的 歧义 词 现 
象 ,提出 一 种 将 穷 举 法 和 消 歧 规 则 相 结 合 的 歧义 词 消 
除 方法 ,并 验证 了 该 方法 的 有 效 性 ;L，M. De Campos 
等 轨 运 用 贝 叶 斯 网 络 对 叙 词 表 进 行 建 模 , 并 使 用 概率 
推理 ,选择 出 最 能 描述 待 分 类 文档 的 描述 符 集合 ,对待 
分 类 文档 进行 自动 标 引 和 分 类 ;0. Medelyan 等 ”通过 
从 特定 领域 叙 词 表 中 收集 术语 和 短语 的 语义 信息 来 提 
高 关键 词 的 自动 抽取 ;Z. A. Merrouni 等 ”对 现 有 的 关 
链 词 自动 抽取 方法 进行 了 概述 ,并 分 析 各 种 方法 的 优 
点 稳 不 足 。 通 过 以 上 研究 ,学 者 多 采用 统计 方法 .语义 
算 坎 以 及 机 器 学 习 等 方法 对 文本 信息 进行 自动 标 引 ， 
引 过 程 中 ,对 词 表 或 分 类 表 的 要 求 较 高 ,制约 了 适 


用 灌 围 。 基 于 用 户 自然 标注 ,通过 构建 用 户 自然 标注 


词 规 ,进而 优化 标 引 算法 ,有 望 提高 标 引 效率 和 质量 。 


中 国内 外 对 用 户 标注 的 研究 主要 集中 在 用 户 标注 语 
SCRUM 用户 标注 行为 等 方面 。 在 用 户 语义 标注 模型 
方 曾 ,白化 通过 建立 用 户 标注 模型 和 语义 联系 ,使 用 
座 颖 据 与 本 体 语言 对 用 户 标注 进行 语义 描述 ,使 之 成 


频率 ,分 析 学 术 用 户 的 专业 类 型 ;X，Pan 等 ”通过 构 
建 超 网 络 , 分 析 不 同 流行 标签 的 使 用 模式 、 规 律 与 用 户 
活动 的 关系 及 社会 标签 资源 的 兴趣 水 平 ,用 于 发 现 小 
群 志同道合 的 用 户 , 同 时 在 识别 有 趣 资 源 方面 能 发 挥 
积极 作用 。 

另外 , 马 费 成 等 利用 标签 分 析 和 确定 概念 的 序 
化 和 聚 类 ,揭示 了 用 户 在 图 书 标 注 环境 下 的 认 知 特征 ; 
常 唯 "” 对 对 网 络 环境 下 的 用 户 标注 进行 了 探析 ,讨论 
了 用 户 标注 在 资源 组 织 . 异 构 资 源 整合 ,协同 过 滤 和 推 
荐 等 方面 的 应 用 ,进而 分 析 其 在 资源 创建 揭示 资源 内 
容 .记录 隐形 知识 .评价 资源 等 方面 的 应 用 价值 。 

以 上 学 者 从 用 户 标注 模型 .用户 标注 行为 以 及 用 
户 标注 聚 类 等 角度 对 用 户 标注 相关 的 内 容 进 行 了 研 
究 , 并 取得 了 一 定 的 成 果 。 用 户 标注 能 够 反映 用 户 的 
意图 ,体现 用 户 对 特定 知识 领域 的 认 知 和 使 用 习惯 ,有 
利于 将 用 户 标注 的 内 容 应 用 在 知识 组 织 、 异 构 资 源 整 
合 ,信息 推送 等 方面 。 然 而 ,传统 的 用 户 标签 通常 依靠 
手工 标 引 , 标 引 效率 偏 低 。 通 过 用 户 自然 标注 数据 ,能 
够 研究 不 同 用 户 对 某 一 特定 主题 的 描述 方式 .表达 习 
惯 ,从 而 对 用 户 标注 的 内 容 进行 分 类 和 聚 类 ,从 用 户 角 
度 对 信息 内 容 进行 组 织 和 分 类 ,实现 对 不 同 来 源 资源 
的 整合 ,提高 用 户 的 标 引 效率 和 检索 效率 。 
2.3 TFJDF 算法 相关 研究 

TF -IDF ( term frequency -inverse document frequency ) 


是 一 种 用 于 信息 检索 与 数据 挖掘 的 常用 加 权 技 术 ”。 


为 称 签 本 体 ,适应 新 一 代 网 络 的 发 展 。 在 用 户 标注 行 
为 禾 究 方面 , 李 枫 林 等 ”通过 对 用 户 标注 行为 分 析 ， 
详 锣 研究 了 用 户 标注 行为 所 反映 的 网 页 间 相关 性 、 标 
签 间 相关 性 以 及 网 页 和 标签 间 相 关 性 的 关联 程度 ,并 
将 这 种 相关 性 用 于 标签 相关 性 计算 上 ,改进 了 SPR 算 
法 ; 吴 丹 等 站 以 武汉 大 学 图 书馆 和 豆 状 网 为 例 ,通过 
真实 的 用 户 日 志 数据 比较 二 者 的 用 户 标注 行为 ,为 图 
书馆 更 好 地 开展 图 书 标注 服务 提出 建议 ; 谢 佳 琳 等 
基于 图 书馆 标注 系统 质量 的 视角 ,以 信息 系统 成 功 模 
型 为 框架 构建 模型 ,研究 了 信息 质量 、 系 统 质量 、 服 务 
质量 .后 悔 以 及 满意 对 高 校 图 书馆 用 户 标注 行为 的 影 
响 ;J，Patterso 等 "通过 特定 的 方式 对 用 户 标注 内 容 
进行 显示 和 隐藏 ,设计 出 了 适合 学 生 使 用 的 电子 书 系 
统 , 为 用 户 推荐 合适 的 电子 书 ;M. A. Zaro ”创建 了 个 
人 和 历史 记忆 、 其 他 资源 链接 修改 .翻译 等 4 种 用 户 
标注 类 型 来 了 解 图 书馆 用 户 的 意图 ,以 及 在 搜索 ,内容 
描述 和 信息 检索 的 方面 的 影响 ;Y，Zhang 等 "9 分 析 了 
学 术 博 客 中 标签 的 内 容 特征 ,根据 标签 的 内 容 和 使 用 


国内 外 对 TFIDF 算法 的 研究 主要 集中 在 算法 改进 上 ， 
VE cR ^U 等 通过 将 权重 修正 函数 (TW) $ TF -IDF 结 
合作 为 新 的 特征 权重 算法 ,用 于 文本 分 类 ;看 志 安 ”| 
等 利用 特征 值 在 类 间 出 现 的 概率 比 代替 特征 值 在 类 间 
出 现 的 次 数 比 改进 TFJDF 算法 ,并 配合 简单 累加 求 和 
的 分 类 器 ,用 于 提高 网 页 文本 分 类 的 准确 率 ; 刘 
等 3 根据 特征 词 的 词 频 、 所 在 位 置 和 词性 提出 了 改进 
TF-IDF 特征 词 加 权 算 法 的 科技 文献 聚 类 方法 ; A. B. 
Samoylov' 站 通过 将 基于 规则 的 方法 和 标准 词 袋 模型 相 
结合 的 方法 ,用 于 评估 语义 分 析 中 ATF-IDF 特征 值 ;S. 
Philip *3& TF-IDF 与 余弦 相似 性 度量 相 结合 ,提出 一 
种 基于 用 户 查询 的 推荐 算法 ;R. Xu 针对 词性 对 检索 
结果 的 影响 ,提出 了 基于 词性 加 权 的 TF -IDF 算法 ,并 
将 该 算法 应 用 在 MOOC 的 搜索 引擎 中 ,取得 了 非常 积 
WAJAR; S. M. H. Dadgar 457" 提出 了 TF-IDF 与 
SVM 相 结合 的 文本 分 类 方法 ,用 于 社交 网 站 中 的 新 闻 
分 类 ,并 验证 了 该 方法 的 有 效 性 。 
通过 对 TF-IDF 算法 的 相关 研究 可 以 发 现 ,TF-IDF 
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算法 在 文本 分 类 方面 应 用 较为 广泛 ,操作 简单 ,易于 改 
进 ,是 提取 文本 特征 常用 算法 之 一 。 因 此 ,笔者 试图 将 
用 户 标签 作为 知识 来 源 ,采用 TF-IDF 算法 构建 知识 
Ve ,并 将 该 算法 与 位 置 加 权 算 法 相 结合 ,用 于 提取 文本 
内 容 的 特征 词 ,通过 知识 库 支 撑 信 息 标 引 和 文本 分 类 ， 
实现 用 户 标签 与 信息 标 引 的 有 效 结合 。 


3 ”辅助 标 引 算法 研究 框架 


3.1 整体 框架 设计 
为 对 待 标 引 数据 进行 关键 词 和 分 类 号 的 同步 标 
引 ,笔者 选择 了 中 文 核心 期 刊 中 的 科技 论文 作为 “用 户 
自然 标注 词 表 " 的 数据 来 源 。 在 科技 论文 中 ,作者 为 每 
篇 论文 赋予 了 关键 词 和 分 类 号 ,在 多 数 情况 下 ,这 些 关 
键 词 和 分 类 号 是 由 作者 自由 标注 的 。 另 外 ,作者 作为 
科研 共同 体 ,既是 用 户 标注 数据 的 生产 者 ,又 是 科研 数 
握 的 使 用 者 ,尤其 是 核心 期 刊 的 论文 作者 ,具有 较 高 的 
学 如 素养 ,专业 性 较 强 ,数据 标注 质量 较 高 ;同时 ,论文 
苞 博 的 分 类 法 多 为 国内 通用 的 《中 国 图 书馆 分 类 法 》， 
规 落 性 较 强 ,因此 ,用 核心 期 刊 论文 的 关键 词 和 分 类 号 
来 固 建 用 户 自然 标注 词 表 是 可 行 的。 基于 用 户 自然 标 
Ht TF-IDF 辅助 标 引 算法 的 技术 路 线 如 图 1 B 


3.2 TFJDF 介绍 

TF-IDF 算法 用 于 评估 某 一 字 词 对 于 一 个 文件 集 
或 一 个 语料库 中 的 其 中 一 份 文 件 的 重要 程度 。TF 表 
示 特 征 词 m 在 文档 D 中 出 现 的 频率 ,IDF 表示 所 有 文 
档 中 出 现 特征 词 m 的 文档 数 。 其 常用 计算 方法 如 下 : 


(D) TF = xr Feri M 表示 文档 D 的 总 的 单词 数 。 


(2)IDF = log (Š +0.01), HP N 为 总 文档 数 ,n 
为 包含 特征 词 m 的 文档 数 。 

(3)TF-IDF=TFxIDF 

通过 TF-IDF 算法 ,能 够 将 表示 文本 主要 特征 内 容 
的 关键 词语 找 出 来 ,同时 将 一 些 无 意义 的 干扰 词语 过 
滤 掉 。 
3.3 用 户 自然 标注 词 表 构 建 

以 “万 方 核心 期 刊 库 ” 为 语料库 ,抽取 期 刊 论文 的 
关键 词 和 中 图 分 类 号 ,构建 “用 户 自然 标注 词 表 ” 的 基 
础 库 。 在 基础 库 中 ,需要 对 一 个 分 类 号 对 应 多 个 关键 
词 的 情况 进行 处 理 ,为 每 一 个 分 类 号 选取 出 最 能 代表 
该 类 的 关键 词 。 

例如 :分 类 号 1 对 应 的 关键 词 有 A、B、C 三 个 , 词 

Wi 3.4.2; 4285 2 对 应 的 关键 词 有 A.、B、 


d maA D 三 个 , 词 频 为 2.1.2。 采 用 TF-IDF 算法 为 
`~ 每 个 分 类 号 选择 特征 词 。 选 择 过 程 如 下 : 
e T 第 一 步 :对 每 个 类 里 的 关键 词 的 词 频 进 
qi 行 归 一 化 。 
AES. - 关键 词 对 应 表 | 切 问 来 源 闻 下 — T m , IRE 5 EPEE 
[mee a e UIN 以 关键 词 A 为 例 , 分 类 号 1 中 的 关键 词 
eco sonum i A 归 一 化 后 TF, 23/9 20.3, 49€ 9 2 中 的 
《用户 标注 词 表 提取 待 标 9 特征 记 z . 
《用户 标注 i 取 待 标 引 数据 的 特征 记 关键 词 A 归 一 化 后 TF, 22/5 =0.4。 
Y p s y x y 3E 
对 待 标 引 数据 进行 关键 词 标 引 x 第 二 步 : 计 算 每 个 类 中 A 的 逆 分 类 号 数 。 
人 IDF, =log(2/2 +0.01) =0. 004 
t IDF, = log(2/2 +0.01) =0. 004 


1 基于 用 户 自然 标注 的 TFJDF 辅助 标 引 算法 技术 路 线 图 


基于 用 户 自 然 标注 的 TF HDF 辅助 标 引 算法 ,以 中 
文 核心 期 刊 论文 库 为 语料库 ,抽取 论文 的 关键 词 和 分 
类 号 ,通过 对 关键 词 和 分 类 号 使 用 TF -IDF 算法 ,构建 
用 户 标 注 词 表 ;以 用 户 标 注 词 表 为 基础 ,对 待 标 引 数据 
进行 切 词 ,通过 使 用 停 用 词 表 和 TF-IDF 算法 以 及 位 置 
加 权 算 法 ,将 无 意义 的 词 过 滤 掉 ,提取 待 标 引 数据 的 特 
征 词 ; 根 据 用 户 标注 词 表 , 对 待 标 引 数据 同时 进行 关键 
词 和 分 类 号 标 引 ,并 将 标 引 结果 与 人 工 标 引 结果 进行 
对 比 ,验证 该 方法 的 有 效 性 。 
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第 三 步 :分 别 计算 TF x IDF 的 值 。 
A, = TF, x IDFI =0. 001 2 
A, = TF, x IDF, 20.001 6 
第 四 步 : 根 据 TF x IDF 值 的 大 小 ,确定 关键 词 A 
对 应 的 分 类 号 。 
由 Al < A2 ,所 以 关键 词 A 对 应 的 分 类 号 为 分 类 
号 2。 
通过 以 上 步骤 ,构建 "用 户 自 然 标注 词 表 ”, 并 以 
“分 类 号 -关键 词 ”的 形式 存储 。 通 过 TF-IDF 算法 构 
建 用 户 自然 标注 词 表 , 能 够 将 某 个 领域 内 绝 大 多 数 符 
合用 户 使 用 习惯 的 特征 词 选 出 来 ,实现 对 词 表 的 优化 。 


陈 白雪 ， 
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3.4 ”关键 词 标 引 和 分 类 号 标 引 
对 待 标 引 数据 进行 关键 词 标 引 和 分 类 号 标 引 依靠 
的 是 “用 户 自然 标注 词 表 ”。 对 待 标 引 数 据 进行 关键 
词 和 分 类 号 标 引 的 主要 步骤 如 下 : 
3.4.1 对 待 标 引 数 据 进 行 切 词 ” 在 对 待 标 引 数 据 进 
行 切 词 的 过 程 中 ,采用 的 词 表 是 用户 自 然 标注 记 
K” ,采用 还 Analyzer 开源 软件 对 待 标 引 数 据 进行 切 
词 。IK Analyzer 是 一 个 开源 的 ,基于 Java 语言 开发 的 
轻 量 级 的 中 文 分 词 工具 包 ,支持 用 户 词典 扩展 ,能 够 加 
载 “ 用 户 自然 标注 词 表 ”, 在 切 词 过 程 中 ,采取 的 是 正 
向 最 大 匹配 算法 。 
3.4.2 ”过 小 无 意义 的 词语 在 构建 用 户 自然 标注 词 
表 的 过 程 中 ,同时 需要 构建 一 个 停 用 词 表 。 停 用 词 表 
中 包括 一 般 大 众 通用 的 日 常 词语 ,不 具有 明显 的 学 科 
或 领域 主题 的 特征 ,例如 :“* 研 究 “ 作 用 "等 一 些 无 专 
措 般 义 的 词语 。 在 切 词 完成 后 ,使 用 停 用 词 表 将 一 些 
下 驻 癌 语 排除 掉 ,保证 剩 下 的 词语 尽量 有 意义 ,能 够 表 
达 往 标 引 数据 的 一 些 内容 特 征 。 
3dpp 关键 词 和 分 类 号 标 引 在 TF-IDF 算法 中 , 主 
要 移 虑 到 了 词语 的 频次 ,没有 考虑 到 词语 在 文本 中 所 
外 网 位 置 。 因 此 ,在 关键 词 提取 过 程 中 ,引入 了 位 置 加 


的 词语 TF -IDF 和 位 置 加 权 算 法 ,计算 每 个 词语 的 得 
分 。 其 计算 过 程 如 下 : 

(1) 计算 文本 中 所 有 词语 的 TF DF 值 , 求 出 词语 
的 得 分 。 

(2) 判断 词语 在 文本 中 的 位 置 ,根据 位 置 的 不 同 ， 
赋予 一 定 的 权重 。 通 常情 况 下 ,词语 处 于 关键 词 位 置 
的 权重 较 大 ,其 次 是 题目 ,最 后 是 摘要 和 正文 。 

(3) 根据 词语 位 置 的 不 同 , 分 别 计算 词语 的 TF - 
IDF 权重 值 , 即 TF-IDF 值 乘 以 权重 值 。 

(4) 对 所 有 词语 按照 TFIDF 权重 值 从 高 到 低 进行 
排序 。 

(5) 关 键 词 标 引 。 为 了 使 标 引 结果 尽 可 能 辅助 人 
工 标 引 ,取得 分 最 高 的 前 10 个 词语 (者 不 足 10 个 , 则 
全 部 保留 ) , 即 为 关键 词 标 引 的 结果 。 

(6) 分 类 号 标 引 。 将 这 些 关 键 词 与 用 户 自然 标注 
词 表 进行 精确 匹配 ,查找 关键 词 对 应 的 分 类 号 , 即 可 为 
待 标 引 数据 进行 分 类 ,获得 1 个 推荐 分 类 号 。 

3.5 辅助 标 引 结果 评测 

对 待 标 引 数据 同时 采用 以 上 算法 和 人 工 标 引 两 种 
方法 分 别 进 行 关 键 词 标 引 和 分 类 标 引 ,从 标 引 准确 度 
等 方面 对 标 引 结果 进行 对 比 ,评测 上 述 标 引 算法 是 否 


5 油 , 通 过 对 词语 在 文本 中 所 处 位 置 的 不 同 ,为 不 同位 


可 行 。 
3.5.1 关键 词 标 引 结果 评测 ”在 对 关键 词 进行 对 比 
时 ,引入 两 个 统计 指标 ,分 别 是 :“ 相 同比 ”和 “相似 


过 停 用 词 表 将 无 意义 的 词语 过 滤 掉 后 ,对 剩 下 比 ”"。 其 计算 方式 如 下 : 
”机 标 关键 词 与 人 标 关键 词 完全 相同 的 个 数 | 
£ 相同 比 = jo 公式 (1) 
L ” ”机 标 关键 词 与 人 标 关键 词 互 为 等 级 或 相关 关系 的 词 + 机 标 关键 词 与 人 标 关键 词 完全 相同 的 个 数 
CHE = TIREN] 


在 公式 1 和 公式 2 中 ,“ 机 标 关键 词 " 是 指 通过 计 
算 机 对 待 标 引 数据 标 引 的 关键 词 ,一 般 为 10 个 “人 标 
关键 词 ”" 是 指 专 业 人 员 为 待 标 引 数据 标 引 的 关键 词 ,一 
般 为 3 -7 个 关键 词 。 
3.5.2 分 类 号 标 引 结果 评测 ”在 对 分 类 号 进行 对 比 
时 ,只 要 “机 标 分 类 号 ”与 "人 标 分 类 号 ”前 三 位 一 致 ， 
即 可 判断 “机 标 分 类 号 ”是 合理 的 。 例 如 :一 条 待 标 引 
数据 机 标的 分 类 号 是 R73 ,人 标的 分 类 号 是 R737. 25 
和 R730. 4, R73 与 R737.25 和 R730.4 的 前 三 位 一 致 ， 
因此 ,可 将 “机 标 分 类 号 ”与 “人 标 分 类 号 ” 视 为 一 致 ， 
即 “ 机 标 分 类 号 ”是 合理 的 。 

在 该 评测 方法 中 ,“ 机 标 分 类 号 ” 指 的 是 通过 计算 
机 对 待 标 引 数据 标 引 的 中 图 分 类 号 ;“ 人 标 分 类 号 ” 指 


公式 (2) 
的 是 专业 人 员 赋 予 待 标 引 数据 的 中 图 分 类 号 。 
在 以 上 结果 评测 过 程 中 , 视 专业 人 员 标 引 的 结果 
是 正确 的 。 


4 实证 研究 


科技 项 目 是 指 以 科学 研究 和 技术 开发 为 内 容 而 单 
独立 项 的 项 目 。 其 基本 的 元 数据 字段 包括 项 目 名 称 、 
关键 词 项 目 简介 项 目 负责 人 等 字段 。 为 了 方便 对 科 
技 项 目 数据 进行 统一 管理 , 需 对 现 有 的 科技 项 目 数据 
进行 标 引 、 分 类 和 整合 ,获取 科技 项 目 数据 的 关键 词 和 
分 类 ,从 而 对 科技 项 目 数据 进行 分 类 和 组 织 , 而 标 引 是 
对 数据 进行 分 类 和 组 织 的 一 个 重要 手段 。 以 课题 组 承 
担 的 国内 科研 项 目 工作 为 应 用 场景 ,通过 对 科研 项 目 数 
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据 进 行 标 引 和 分 类 ,进而 实现 对 科研 项 目的 有 效 组 织 三 
服务 ,将 会 在 科技 项 目 查 重 与 检索 方面 发 挥 有 效 作用 。 
4.1 实验 过 程 


4.1.1 用 户 标注 词 表 构 建 ”用 户 标 注 词 表 的 数据 源 
选取 了 “万 方 核心 期 刊 库 " 里 的 “U27 车 辆 工程 “R73 


肿瘤 学 “U44 桥涵 工程 ”三 个 领域 里 的 期 刊 论文 的 关 
键 词 和 分 类 号 ,形成 “分 类 号 - 关键 词 " 列表 ,共计 
221 664 条 记录 。 其 构建 过 程 如 下 : 


原始 数据 (分 类 号 - 关键 词 ) 
Y 

分 类 号 进行 规范 ( 取 分 类 号 前 三 位 ) 
Y 

Up opes GER 
Y 


采用 TF-IDF 选择 分 类 号 的 特征 词 


Y 


形成 用 户 标 注 词 表 


图 2 “用 户 标注 词 表 ”构建 过 程 
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s 在 获取 核心 期 刊 的 关键 词 和 分 类 号 后 ,由 于 不 同 
对 同一 个 关键 词 的 分 类 不 尽 相 同 ， 对 相同 主题 
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的 论文 的 分 类 号 层级 也 不 全 相同 ,分 类 号 的 层级 有 三 
级 、 四 级 或 五 级 以 上 ,因此 ,在 构建 用 户 标注 词 表 时 , 需 
要 对 分 类 号 进行 规范 ,根据 期 刊 论 文中 作者 赋予 的 分 
类 号 的 位 数 ,分 类 号 最 少 是 三 级 ,可 以 满足 大 多 数 常规 
需求 ,因此 ,在 构建 用 户 标 注 词 表 时 将 所 有 分 类 号 归 到 
了 各 自 的 上 位 类 “U27”“U44” 和 “R73”。 

通过 统计 每 个 关键 词 在 不 同 分 类 号 中 出 现 的 词 
频 ,使 用 TF-IDF 算法 ,为 每 个 类 号 选 出 能 够 代表 该 类 
的 关键 词 ,最 终 形成 94 053 条 记录 , 见 图 3。 
4.1.2 科技 项 目 数据 关键 词 与 分 类 号 标 引 ”在 对 科 
技 项 目 数据 进行 特征 词 提取 时 ,主要 通过 项 目标 题 和 
摘要 提取 。 在 实验 过 程 中 ,随机 选取 三 个 领域 的 科技 
项 目 数据 840 条 , 先 用 IK Analyzer 切 词 软件 对 项 目 数 
据 进行 切 词 ,然后 ,使 用 停 用 词 表 将 没有 专 指 意义 的 词 
语 过 滤 掉 ,其 次 ,使 用 TF-IDF 和 位 置 加 权 算 法 对 剩 下 
的 词语 计算 和 排序 ,最 后 ,提取 科技 项 目 数据 的 关键 
词 , 对 科技 项 目 数据 进行 关键 词 标 引 与 分 类 号 标 引 。 
根据 题目 和 摘要 对 科技 项 目的 重要 性 ,依据 经 验 将 其 
权重 比 设 为 6:4。 其 部 分 计算 结果 见 图 4。 


B C D E F 
1 | 分 类 号 关键 词 词 频 tf idf source 
2 U44 桥梁 工程 196 0. 006258181 '0.4054651081081644 0. 0025374740357254604 
8 R78 预后 189%. 001024945 1.0986122886681098 。 0. 0011260171722089357 
4 R73 肿瘤 174 0. 0009436 1.0986122886681098 ^ 0. 0010366505555872284 
5 R73 免疫 组 织 化 学 171 0. 000927331 1. 0986122886681098 0. 0010187772322628869 
> 6 R73 诊断 161 0. 000905639 0 0 
em) 7 R73 细胞 凋 亡 1600. 000867678 1.0986122886681098 '0.0009532417134069681 
x< 8 R73 mc 152%. 000824295 1.0986122886681098 O. 0009055806164876795 
a 9 R73 治疗 151 0. 000818872 1.0986122886681098 0. 0008996228420462324 
10 R73 说 共振 成 像 137 0. 00074295 1. 0986122886681098 0. 0008162139998659722 
人 11 R73 免疫 组 化 135 0. 000732104 1.0986122886681098 "O. 0008042984509830T79 
s— 12 R73 体 层 摄影 术 ,X 线 计算 机 129 0. 000699566 1.0986122886681098 "O. 0007685518043343949 
S 13 R73 38 123 0. 000661028 "1. 0986122886681098  0.0007328051576857119 
O 14 R73 肿瘤 转移 121 0. 000656182 1.0986122886681098 ^ 0. 0007208896088028176 
15 R73 化 疗 120'0. 000650759 1.0986122886681098 "0. 0007149318343613705 
图 3 用 户 标注 词 表 截图 
正题 名 文摘 机 标 关键 局 机 标 分 类 号 
. E "PRESS PEMAN: »n 
prp ie id 简介 : AUTH = 11.224319, 循环 内 皮 细 胞 = 11.224319, Rif = 4.879882, R73 
EMP-2/Snad 信 号 通路 及 相关 因子 SERA ERRANG: ZB = 6.7345915, noggin = 6. 7345915, saad = 6. 041445， 信 号 通路 = 4.026541, i iis 
Noggin, Surf 5E fei BEE = 3. 4023871, 
SPARC, Cpé0S IF tETLIR SEDE mian, ERMAPRI: 
XSOSBXBess MG WX j sparc = 11.224319, BRASE KKE = 11.224319, FLIRE = 5. 206123, R73 
Des ; z mm: rsmDAP: 
RELIER 《PYCE》 治 疗 肝 项 目 简介 : MS = 16.83648, HILF = 16.83648, R73 
s NELLE Inne: 
ana ER 项 目 简介 : 诊断 标记 = 11. 224319， 血 清 nirna = 11.224319, FAREM = 10. 069075, R73 


HRE: IRRE: UU 

JMESEREYTOUDREHE- BEER CUR (2. tauot, SefB EE A quot AWARS 

HXSSARAERMDSE  TOGSFO MENM 
triv aii ed 


Ji = 6.7345915， 热 休 丰 蛋白 70 = 6.7345915, PEEB = 6. 041445， 免 投机 制 = 
^ ve 6.041445, WAH = 5.348297, hsp?70 = 2.196889, afp = 1.3977692, HER = R73 
To GisP70) PARLE RE STIS E Rn 1. 2244712， 免 疫 原 性 = 1. 2244712， 免 疫 效 应 = 1.0984445, 


西安 地 区 女性 人 乳头 的 病毒 感染 状 ” 因 蕊 片 导 法 厅 交 检测 法 ， 对 400 例 西安 地 ”人 屯 头 瘤 病毒 = 67345915, SAME = 6. 7345915， 西 实地 区 = 6. 7345915， 感 染 状况 


况 与 宫 绒 病变 相关 性 研究 
2158 A S1 3L ER (mean manila 


= -= = 6.7345915， 相 关 性 研究 = 4.4320064, MATHPATI = 1.683648, SAS = R73 
EHRESABRES LEES 1.5358254, hpv = 1. 5103612， 亚 型 分 布 =ó 841824, 知晓 率 = 0.841824, 


4 科技 项 目 数 据 关键 词 与 分 类 号 标 引 结果 部 分 截图 
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4.2 实验 结果 

为 了 验证 该 方法 的 有 效 性 ,请 专业 标 引 人 员 在 事 
先 不 接触 机 标 结果 的 前 提 下 ,人 工 对 这 840 条 数据 进 
行 关键 词 和 分 类 号 标 引 。 人 工 标 引 的 过 程 如 下 : 

将 840 条 科技 项 目 数据 的 标题 和 文摘 信息 以 EX- 
CEL 文件 形式 发 给 具有 专业 知识 背景 的 标 引 人 员 ; 专 
业 标 引 人 员 依据 自己 的 背景 知识 ,根据 科技 项 目 数据 
的 题目 和 摘要 ,从 中 抽取 或 赋予 能 代表 该 数据 内 容 特 
征 的 3 -7 个 关键 词 和 1 -3 个 分 类 号 。 由 于 有 些 科 技 


正题 名 文摘 
经 动脉 化 疗 栓塞 治疗 肝癌 中 循环 大 研究 目标 : 主要 研究 内 容 : 


E 人 标 关键 司 
项 目 简 : 经 动脉 化 疗 栓塞 治疗 ; 肝癌; 循环 内 皮 细胞 


项 目 数据 的 摘要 内 容 为 空 ,专业 标 引 人 员 在 进行 关键 
词 和 分 类 号 标 引 时 ,只 能 根据 题目 进行 标 引 ,这 样 选 出 
的 关键 词 可 能 不 足 3 个 ,这 时 就 按照 有 多 少 标 多 少 的 
原则 进行 标 引 即 可 。 在 人 工 标 引 过 程 中 ,专业 人 员 可 
以 主要 依据 4 汉语 主题 词 表 》 和 《中 国 图 书馆 分 类 法 》， 
尽 可 能 使 用 较为 规范 的 关键 词 和 分 类 号 对 待 标 引 数据 
进行 标 引 。 
人 工 标 引 的 结果 如 图 5 所 示 : 
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R730. 53; R735. 7 


5 ”科技 项 目 数据 人 工 标 引 部 分 结果 


y EG 本 RCR ;BIIP-2/Smad 信 号 通路 ;Noggin; Snurfl; f; 
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〇 由 于 “机 标 关键 词 "选取 了 每 条 科技 项 目 数据 的 
诉 过 个 特征 词 , 而 人 工 标 引 时 为 每 条 科技 项 目 数据 标 
35 个 关键 词 ,因此 ,在 “机 标 关键 词 " 与 * 人 标 关 
键 词 "进行 对 比 时 ,采取 了 两 个 指标 ,“ 相 同比" 和 “ 相 


一 9 一 相同 比 一 各 一 相似 比 


图 6 关键 词 标 引 “ 相 同比 ”与 “相似 比 ”实验 结果 


由 图 6 可 知 ,“ 相 同比 ”在 50% 以 上 (包括 50% ) 有 
339 条 , 占 总 数 的 40.4% ,将 “机 标 关键 词 " 进行 扩展 或 
缩减 后 , 即 “ 相 似 比 ”大 多 都 在 60% 以 上 ,有 572 条 ( 包 
括 6096 ) , 占 总 数 的 68.1% 。 这 样 ,在 进行 机 器 辅助 标 
引 时 ,能够 将 科技 项 目 数据 的 关键 词 的 相关 词 标 引 出 
来 ,再 加 以 人 工 判断 , 即 可 为 科技 项 目 数据 赋予 符合 
数 用 户 使 用 习惯 的 关键 词 , 标 引 准 确 度 较 高 , 且 符 合用 
户 习 惯 。 
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“人 标 分 类 号 ”是 根据 专业 人 员 的 知识 与 背景 ,经 
过 判断 赋予 的 一 个 或 多 个 分 类 号 ,而 “机 标 分 类 号 ”是 
根据 “用 户 自 然 标注 词 表 ”自动 判断 的 ,根据 2.3 中 对 
分 类 号 标 引 的 验证 方法 进行 检验 表明 ， 机 标 分 类 号 ” 
与 “人 标 分 类 号 "前 三 位 一 致 的 有 705 条 , 占 总 数 的 
83.9% ,一 致 性 较 高 。 其 分 析 结 果 见 图 7。 
4.3 实验 分 析 
4.3.1 规范 分 类 号 的 效率 与 性 能 ”在 中 文 
期 刊 核心 库 中 ,由 于 不 同 的 作者 对 同一 关键 
词 的 分 类 不 尽 相 同 ,同一 关键 词 可 能 对 应 多 
个 分 类 号 ,在 对 科技 项 目 数据 进行 分 类 标 引 
时 ,只 要 能 满足 科技 项 目 数据 的 管理 需求 即 
可 ,因此 ,在 构建 用 户 标注 词 表 对 分 类 号 进 
行规 范 时 ,只 取 了 分 类 号 的 前 三 位 ,可 以 基 
本 满足 科技 项 目的 管理 需求 。 这 样 在 使 用 机 器 标 引 
时 ,为 了 尽 可 能 更 客观 评价 标 引 结果 ,在 人 工 标 引 与 机 
器 标 引 结果 进行 对 比 时 ,采用 向 上 靠近 的 方法 ,只 要 
“机 标 分 类 号 "与 ”人 标 分 类 号 "的 前 三 位 一 致 时 ,就 认 
为 其 是 正确 的 。 虽 然 机 器 标 引 的 分 类 号 没有 人 工 标 引 
的 分 类 号 的 颗粒 度 细 , 但 是 ,机 器 标 引 的 效率 远 远 大 于 
人 工 标 引 的 效率 ,而 且 标 引出 的 分 类 可 以 辅助 人 工 标 
引 。 未 来 ,在 构建 用 户 标 注 词 表 时 ,可 以 取 分 类 号 的 前 
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图 7 “机 标 分 类 号 "与 ”人 标 分 类 号 ” 
前 三 位 一 致 的 实验 结果 


四 位 或 前 五 位 ,然后 再 进行 测试 。 
4.3.2 用 户 自然 标注 词 表 的 合理 性 ”在 该 算法 中 ， 
“机 标 关键 词 "的 正确 性 绝 大 部 分 取决 于 用 户 自然 标 
注 词 表 ,在 实验 过 程 中 ,用 户 自 然 标注 词 表 中 的 关键 词 
主要 来 源 于 万 方 数据 知识 服务 平台 中 核心 期 刊 论文 的 
关键 词 和 分 类 号 ,最终 形成 9 万 多 的 关键 词 词 表 ,但 是 

PR 可 能 把 三 个 领域 中 的 关键 词 穷尽 。 另 外 ,机 器 辅 


OS TFIDF 的 适用 性 TF-IDF 广泛 用 于 信息 检索 
与 匆 据 挖掘 方面 ,是 一 种 比较 成 熟 的 算法 ,该 算法 容易 
理解 ,易于 操作 ,在 特征 词 选取 方面 具有 较 好 的 适用 
性 忆 笔 者 通过 将 其 运用 在 用 户 自然 标注 词 表 构 建 和 科 
技 久 目 数据 特征 词 提取 这 两 步 ,再 加 上 停 用 词 表 , 能 够 
gs 具有 干扰 性 的 词语 过 滤 掉 , 选 出 的 特征 词 基 本 
上 能 够 描述 科技 项 目 数据 的 主题 ,同时 也 符合 用 户 的 
标 引 习 惯 。 在 实验 过 程 中 ,选取 了 3 个 学 科 领 域 进行 
实验 , 当 扩 大 实验 领域 时 ,该 算法 的 普 适 性 仍 需 要 进 一 
步 验 证 。 

4.3.4 人工 标 引 的 主观 性 ”在 机 标 结果 与 人 标 结 
进行 对 比 时 ,考虑 到 人 工 标 引 的 专业 性 ,默认 为 人 工 标 
引 的 结果 是 正确 的 ,实际 上 ,不 同 的 标 引 人 员 对 于 同一 
主题 的 标 引 会 有 一 定 的 主观 性 ,在 进行 关键 词 标 引 时 ， 
采用 的 关键 词 可 能 不 尽 相 同 ,在 标 引 颗 粒度 ,主题 倾向 
性 方面 产生 偏差 ,例如 :在 肿瘤 学 里 对 于 “斑马 鱼 模 
型 "一 词 ,有 的 采用 “斑马 鱼 ” 进 行 标 引 ,有 的 采用 “ 动 
物 模型 "进行 标 引 , 而 在 机 标 中 ,采用 了 “斑马 鱼 模型” 
进行 标 引 ,准确 性 和 一 致 性 较 高 ,可 以 辅助 提高 标 引 效 
果 。 因 此 ,在 进行 科技 项 目 数据 辅助 标 引 时 ,可 以 先 通 
过 自动 标 引 ,将 这 些 关键 词 标 出 来 ,推荐 给 相关 标 引 人 
员 , 再 由 标 引 人 员 进行 判断 ,通过 迭代 循环 ,不 仅 可 以 
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提高 机 融 标 引 的 质量 ,也 为 人 工 标 引 提供 了 更 好 的 畏 
助 参考 。 


5 结论 


笔者 以 中 文 核心 期 刊 论文 的 关键 词 和 分 类 号 为 源 
数据 ,对 关键 词 词 频 进行 统计 ,使 用 TF-IDF 算法 构建 
用 户 标注 词 表 ,通过 IK. Analyzer 分 词 软件 对 待 标 引 的 
科技 项 目 数据 进行 切 词 ,提取 科技 项 目 数据 的 特征 词 ， 
对 科技 项 目 数据 进行 关键 词 标 引 和 分 类 标 引 ,使 标 引 
的 效率 和 准确 度 有 了 和 较 大 提高 。 由 实验 结果 可 知 , 采 
用 基于 用 户 自然 标注 的 科技 项 目 数据 机 器 辅助 标 引 算 
法 ,使 得 “机 标 关键 词 ” 与 “人 标 关键 词 ” 的 相似 比 在 
60% 以 上 的 科技 项 目 数据 占 总 数 的 68. 1% ， 机 标 分 
类 号 ”与 “人 标 人 类 号 "一致 的 占 总 数 的 83.9% ,初步 
证 明了 该 方法 的 有 效 性 。 通 过 优化 TF-IDF 计算 模型 、 
不 断 提高 标 引 精度 ,进一步 发 挥 用 户 自然 标注 知识 库 
的 效率 ,并 在 更 多 的 学 科 领 域 进行 验证 ,逐步 达到 应 用 
水 平 , 是 下 一 步 研究 的 重点 方向 。 
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Abstract. [ Purpose/significance | This paper studies the TF-IDF assisted indexing algorithm based on the user nat- 
ural annotation from the users? point of view. | Method/process ] First, the keywords and the classification number in 
Chinese core journals were taken as the data source. The user natural annotation vocabulary was constructed by computing 
the keywords frequency and using the TF-IDF algorithm. Second, the featured words were extracted from the scientific and 
technological project data by the IK Analyzer word segmentation software and the TF-IDF algorithm. Finally, the keywords 
and classification number of the scientific and technological project data were indexed synchronously. [ Result/conclu- 
sion | The experiment indicates that the data of scientific and technical projects take up 68. 196 in total. In these projects, 
the ratio similitude of the keywords of machine indexing and the keywords of human indexing is more than 60% in total. 
The ratio of the uniformity in the former three numbers of machine -indexed classification number and the human -indexed 
classification number is 83. 996 in total. It is feasible to adopt the TF -IDF algorithm based on the users’ natural annota- 
tion data. 
TF-IDF algorithm information organization 
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